Information Theory, Inference and Learning Algorithms Lecture 2
课程主页:http://www.inference.org.uk/mackay/itprnn/,http://www.inference.org.uk/itprnn_lectures/
课程书籍:https://book.douban.com/subject/1893050/
这次回顾第二讲,第二讲介绍了熵的概念。
备注:笔记参考了中文书籍。
熵和相关函数的定义
结果为$x$的香农信息量定义为
总体$X$的熵定义为香农信息量的期望
方便起见,也将$H(X)$记作$H(p)$,其中
那么
$X$和$Y$的联合熵为
性质
- $H(X)\ge 0$,当且仅当存在$x$,使得$P(x)=1$时等号成立。
- $H(X) \le \log \left(\left|\mathscr{B}_{X}\right|\right)$,当且仅当$P(x)=\frac 1 {|\mathscr G_X|}$时等号成立。
1.证明:
当且仅当$P(x)=1$时等号成立。
所以
注意到
所以当且仅当存在$x$,使得$P(x)=1$时等号成立。
2.证明:
利用凸函数的性质可得
当且仅当$P(x)=\frac 1 {|\mathscr H_X|}$时等号成立。
熵的可分解性
特别的,对于$m=1$,我们有
证明:
三者相加即可得到$H(p)$
Gibbs不等式
概率分布$P(x)$和$Q(x)$的相对熵(KL散度)为
相对熵满足Gibbs不等式
当且仅当$P=Q$时取等号。
证明:
令
利用Jenson不等式,我们有
取$u=\frac {Q(x)}{P(x)}$,概率分布为$P(x)$,那么
凸函数以及Jenson不等式
函数$f$在$(a,b)$上是凸的,如果对所有$x_{1}, x_{2} \in(a, b)$和$0\le \lambda \le 1$,都有
凸函数的图示如下:
Jenson不等式
如果$f$是凸函数,$x$是随机变量,那么
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Doraemonzzz!
评论
ValineLivere